The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
KL-regularized reinforcement learning from expert demonstrations has proved successful in improving the sample efficiency of deep reinforcement learning algorithms, allowing them to be applied to challenging physical real-world tasks. However, we show that KL-regularized reinforcement learning with behavioral reference policies derived from expert demonstrations can suffer from pathological training dynamics that can lead to slow, unstable, and suboptimal online learning. We show empirically that the pathology occurs for commonly chosen behavioral policy classes and demonstrate its impact on sample efficiency and online policy performance. Finally, we show that the pathology can be remedied by non-parametric behavioral reference policies and that this allows KL-regularized reinforcement learning to significantly outperform state-of-the-art approaches on a variety of challenging locomotion and dexterous hand manipulation tasks.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
癌症护理中的治疗决策受到随机对照试验(RCT)的治疗效应估计的指导。 RCT估计在某个人群中,一种治疗与另一种治疗的平均效应。但是,治疗可能对人群中的每个患者都不同样有效。了解针对特定患者和肿瘤特征量身定制的治疗的有效性将实现个性化的治疗决策。通过平均RCT中不同患者亚组的结果来获得量身定制的治疗效果,需要大量的患者在所有相关亚组中具有足够的统计能力,以实现所有可能的治疗。美国癌症联合委员会(AJCC)建议研究人员开发结果预测模型(OPMS),以实现个性化治疗决策。 OPM有时称为风险模型或预后模型,使用患者和肿瘤特征来预测患者的结局,例如总体生存。假设这些预测对于使用“只有在OPM预测患者具有高复发风险的情况下开出化学疗法的规则”之类的规则,对治疗决策有用。 AJCC认识到可靠预测的重要性,发布了OPM的清单,以确保设计OPM设计的患者群体的可靠OPM预测准确性。但是,准确的结果预测并不意味着这些预测会产生良好的治疗决策。从这个角度来看,我们表明OPM依靠固定的治疗政策,这意味着被发现可以准确预测验证研究结果的OPM在用于治疗决策的情况下仍会导致患者伤害。然后,我们提供有关如何开发对个性化治疗决策有用的模型以及如何评估模型是否具有决策价值的指导。
translated by 谷歌翻译
社会机器人的快速发展刺激了人类运动建模,解释和预测,主动碰撞,人类机器人相互作用和共享空间中共同损害的积极研究。现代方法的目标需要高质量的数据集进行培训和评估。但是,大多数可用数据集都遭受了不准确的跟踪数据或跟踪人员的不自然的脚本行为。本文试图通过在语义丰富的环境中提供运动捕获,眼睛凝视跟踪器和板载机器人传感器的高质量跟踪信息来填补这一空白。为了诱导记录参与者的自然行为,我们利用了松散的脚本化任务分配,这使参与者以自然而有目的的方式导航到动态的实验室环境。本文介绍的运动数据集设置了高质量的标准,因为使用语义信息可以增强现实和准确的数据,从而使新算法的开发不仅依赖于跟踪信息,而且还依赖于移动代理的上下文提示,还依赖于跟踪信息。静态和动态环境。
translated by 谷歌翻译
机器人越来越多地部署在与人类共享的空间中,包括家庭环境和工业环境。在这些环境中,人与机器人之间的相互作用(HRI)对于安全性,可读性和效率至关重要。 HRI的一个关键因素是信任,它调节了系统的接受。已显示拟人化可以调节机器人的信任发展,但工业环境中的机器人通常不是拟人化的。我们在工业环境中设计了一个简单的互动,在该环境中,拟人化模拟驱动器(ARMOD)机器人模拟了自动驾驶汽车(AGV)。该任务由与AGV的人类交叉路径组成,有或不带有狭窄的走廊上安装在顶部。人类和系统在越过路径时需要协商轨迹,这意味着人必须关注机器人的轨迹,以避免与它发生碰撞。在存在ARMOD的情况下,报告的信任评分有显着的增长,表明拟人化机器人的存在足以调节信任,即使在有限的相互作用中,就像我们在这里提出的相互作用一样。
translated by 谷歌翻译
人工智能的最新趋势是将验证的模型用于语言和视觉任务,这些模型已经实现了非凡的表现,但也令人困惑。因此,以各种方式探索这些模型的能力对该领域至关重要。在本文中,我们探讨了模型的可靠性,在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能,而且在许多涉及不确定性(例如选择性预测,开放式设置识别)的决策任务上,在许多决策任务上表现出色,而且表现良好。强大的概括(例如,准确性和适当的评分规则,例如在分布数据集中和分发数据集上的对数可能性)和适应性(例如,主动学习,几乎没有射击不确定性)。我们设计了40个数据集的10种任务类型,以评估视觉和语言域上可靠性的不同方面。为了提高可靠性,我们分别开发了VIT-PLEX和T5-PLEX,分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进,并简化了传统协议,因为它可以改善开箱即用的性能,并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果,并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能,包括零射门的开放式识别,主动学习和对话语言理解中的不确定性。
translated by 谷歌翻译
离线强化学习在利用大型预采用的数据集进行政策学习方面表现出了巨大的希望,使代理商可以放弃经常廉价的在线数据收集。但是,迄今为止,离线强化学习的探索相对较小,并且缺乏对剩余挑战所在的何处的了解。在本文中,我们试图建立简单的基线以在视觉域中连续控制。我们表明,对两个基于最先进的在线增强学习算法,Dreamerv2和DRQ-V2进行了简单的修改,足以超越事先工作并建立竞争性的基准。我们在现有的离线数据集中对这些算法进行了严格的评估,以及从视觉观察结果中进行离线强化学习的新测试台,更好地代表现实世界中离线增强学习问题中存在的数据分布,并开放我们的代码和数据以促进此方面的进度重要领域。最后,我们介绍并分析了来自视觉观察的离线RL所独有的几个关键Desiderata,包括视觉分散注意力和动态视觉上可识别的变化。
translated by 谷歌翻译
生成时间连贯的高保真视频是生成建模研究中的重要里程碑。我们通过提出一个视频生成的扩散模型来取得这一里程碑的进步,该模型显示出非常有希望的初始结果。我们的模型是标准图像扩散体系结构的自然扩展,它可以从图像和视频数据中共同训练,我们发现这可以减少Minibatch梯度的方差并加快优化。为了生成长而更高的分辨率视频,我们引入了一种新的条件抽样技术,用于空间和时间视频扩展,该技术的性能比以前提出的方法更好。我们介绍了大型文本条件的视频生成任务,以及最新的结果,以实现视频预测和无条件视频生成的确定基准。可从https://video-diffusion.github.io/获得补充材料
translated by 谷歌翻译
一系列不受限制的在线凸优化中的作品已经调查了同时调整比较器的规范$ u $和梯度的最大规范$ g $的可能性。在完全的一般性中,已知匹配的上限和下界表明,这是不可避免的$ g u^3 $的不可避免的成本,当$ g $或$ u $提前知道时,这是不需要的。令人惊讶的是,Kempka等人的最新结果。 (2019年)表明,在特定情况下,不需要这样的适应性价格,例如$ -Lipschitz损失(例如铰链损失)。我们通过表明我们专门研究任何其他常见的在线学习损失,我们的结果涵盖了日志损失,(线性和非参数)逻辑回归,我们实际上从来没有任何代价来为适应性支付的代价,从而跟进这一观察结果,我们会跟进这一观察结果。方形损耗预测,以及(线性和非参数)最小二乘回归。我们还通过提供对$ U $的明确依赖的下限来填补文献中的几个空白。在所有情况下,我们都会获得无标度算法,这些算法在数据恢复下是合理的不变。我们的一般目标是在不关心计算效率的情况下建立可实现的速率,但是对于线性逻辑回归,我们还提供了一种适应性方法,该方法与Agarwal等人的最新非自适应算法一样有效。 (2021)。
translated by 谷歌翻译